68 research outputs found

    Caractérisation d'instances d'apprentissage pour méta-mining évolutionnaire.

    Get PDF
    Les nombreuses techniques d'apprentissage et de fouille de données mises au point au cours des dernières décennies peuvent se révéler d'importants atouts dans divers domaines, mais choisir la technique la plus appropriée pour une application précise est une tâche très complexe pour un non-expert. Notre objectif est ainsi de produire un assistant de modélisation répondant à ce besoin, par une approche à la frontière du méta-apprentissage et des heuristiques évolutionnaires. Nous présentons ici le fonctionnement prévu de cet assistant, suivi d'une discussion de notre approche du problème de caractérisation des instances d'apprentissage, qui reste un verrou majeur du méta-apprentissage et méta-mining

    A novel multidimensional model for the OLAP on documents : modeling, generation and implementation

    Get PDF
    International audienceAs the amount of textual information grows explosively in various kinds of business systems, it becomes more and more essential to analyze both structured data and unstructured textual data simultaneously. However information contained in non structured data (documents and so on) is only partially used in business intelligence (BI). Indeed On-Line Analytical Processing (OLAP) cubes which are the main support of BI analysis in decision support systems have focused on structured data. This is the reason why OLAP is being extended to unstructured textual data. In this paper we introduce the innovative “Diamond” multidimensional model that will serve as a basis for semantic OLAP on XML documents and then we describe the meta modeling, generation and implementation of a the Diamond multidimensional model

    Modèle multidimensionnel en diamant dédié à l'OLAP sémantique de documents

    Get PDF
    National audienceLe document électronique représente aujourd’hui un support d’information que les entreprises ne peuvent plus négliger si elles veulent être certaines d’identifier et de gérer toutes les données qui leur sont utiles au quotidien. Plusieurs travaux ont proposé l’application des techniques OLAP (« On-line Analytical Processing ») aux informations documentaires. Dans cet article, nous présentons un nouveau modèle multidimensionnel dédié à l’OLAP de documents. Ce modèle, dit en diamant, est organisé autour d’une dimension centrale qui traduit la sémantique du contenu textuel du document

    Diamond multidimensional model and aggregation operators for document OLAP

    Get PDF
    International audienceOn-Line Analytical Processing (OLAP) has generated methodologies for the analysis of structured data. However, they are not appropriate to handle document content analysis. Because of the fast growing of this type of data, there is a need for new approaches abling to manage textual content of data. Generally, these data exist in XML format. In this context, we propose an approach of construction of our Diamond multidimensional model, which includes semantic dimension to better consider the semantics of textual data In addition, we propose new aggregation operators for textual data in OLAP environment

    Segmentation Parole/Musique pour la transcription automatique

    Get PDF
    Colloque avec actes et comité de lecture. internationale.International audienceDans cet article nous présentons une étude sur l'utilisation des paramètres MFCC dans la tâche de segmentation parole/musique indispensable dans les applications de transcription automatique d'émissions radiophoniques. Nous avons étudié, l'influence du nombre de coefficients MFCC, celle des paramètres dynamiques et notamment celui de la variance des coefficients MFCC calculée sur une seconde. Les tests ont été effectués sur un corpus radiophonique réel et difficile et sur le corpus de Scheirer. || The speech/music segmentation process is very useful as a first step for different tasks like speech recognition or automatic transcription. In this article, we present some studies about the use of MFCC for this speech/music segmentation. We mainly use a realworld broadcast corpus with various backgrounds and superimposed segments (speech with music). We investigate the role of the number of cepstral coefficients, the influence of different kinds of dynamic parameters, and the robustness of some of them when a mismatch between train and test conditions occurs. So we can notice that the standard MFCC coefficients with the first and second derivatives achieve good results. But, better performances were obtained with dynamic parameters and mainly with the variance of the static coefficients computed on a longterm window (1s)

    Addressing the Meta-Learning problem with Metaheuristics

    Get PDF
    The many machine learning and data mining techniques produced over the last decades can prove invaluable assets in diverse fields, but choosing the most appropriate for a given application may be very difficult for a non-expert. Our objective is thus to provide modelling assistance using a meta-learning approach based on an evolutionary metaheuristic. We present the intended workflow of such modelling assistant and the expected challenges along our line of work

    Audio Indexing on the Web: a Preliminary Study of Some Audio Descriptors

    Get PDF
    Colloque avec actes et comité de lecture. internationale.International audienceThe "Invisible Web" is composed of documents which can not be currently accessed by Web search engines, because they have a dynamic URL or are not textual, like video or audio documents. For audio documents, one solution is automatic indexing. It consists in finding good descriptors of audio documents which can be used as indexes for archiving and search. This paper presents an overview and recent results of the RAIVES project, a French research project on audio indexing. We present speech/music segmentation, speaker tracking, and keywords detection. We also give a few perspectives of the RAIVES project

    Projet RAIVES (Recherche Automatique d'Informations Verbales Et Sonores) vers l'extraction et la structuration de données radiophoniques sur Internet

    Get PDF
    Rapport de contrat.Internet est devenu un vecteur important de la communication. Il permet la diffusion et l'échange d'un volume croissant de données. Il ne s'agit donc plus seulement de collecter des masses importantes " d'informations électroniques ", mais surtout de les répertorier, de les classer pour faciliter l'accès à l'information utile. Une information, aussi importante soit-elle, sur un site non répertorié, est méconnue. Il ne faut donc pas négliger la part du " Web invisible ". Le Web invisible peut se définir comme l'ensemble des informations non indexées, soit parce qu'elles ne sont pas répertoriées, soit parce que les pages les contenant sont dynamiques, soit encore parce que leur nature n'est pas ou difficilement indexable. En effet, la plupart des moteurs de recherche se basent sur une analyse textuelle du contenu des pages, mais ne peuvent prendre en compte le contenu des documents sonores ou visuels. Il faut donc fournir un ensemble d'éléments descripteurs du contenu pour structurer les documents afin que l'information soit accessible aux moteurs de recherche. S'agissant de documents sonores, le but de notre projet est donc, d'une part, d'extraire ces informations et, d'autre part, de fournir une structuration des documents afin de faciliter l'accès au contenu. L'indexation par le contenu de documents sonores s'appuie sur des techniques utilisées en traitement automatique de la parole, mais doit être distinguée de l'alignement automatique d'un texte sur un flux sonore ou encore de la reconnaissance automatique de la parole. Ce serait alors réduire le contenu d'un document sonore à sa seule composante verbale. Or, la composante non-verbale d'un document sonore est importante et correspond souvent à une structuration particulière du document. Par exemple, dans le cas de documents radiophoniques, on voit l'alternance de parole et de musique, plus particulièrement de jingles, pour annoncer les informations. Ainsi, nous pouvons considérer un ensemble de descripteurs du contenu d'un document radiophonique : segments de Parole/Musique, " sons clés ", langue, changements de locuteurs associés à une éventuelle identification de ces locuteurs, mots clés et thèmes. Cet ensemble peut être bien entendu enrichi. Extraire l'ensemble des descripteurs est sans doute suffisant pour référencer un document sur Internet. Mais il est intéressant d'aller plus loin et de donner accès à des parties précises du document. Chaque descripteur doit être associé à un marqueur temporel qui donne accès directement à l'information. Cependant, l'ensemble des descripteurs appartenant à des niveaux de description différents, leur organisation n'est pas linéaire dans le temps : un même locuteur peut parler en deux langues sur un même segment de parole, ou encore sur un segment de parole dans une langue donnée, plusieurs locuteurs peuvent intervenir. Il faut donc aussi être capable de fournir une structuration de l'information sur différents niveaux de représentation
    • …
    corecore